【CVPR】Self-supervised Video Transformer

发布日期：2023-03-17 返回

Self-supervised Video Transformer

分享人：郭静文
研究方向：视频动作分析
论文题目：Self-supervised Video Transformer
论文作者：Kanchana Ranasinghe; Muzammal Naseer; Salman Khan; Fahad Shahbaz Khan; Michael S. Ryoo
作者单位：扎耶德人工智能大学、澳大利亚国立大学
论文摘要：在本文中，我们建议使用未标记的视频数据对视频转换器进行自监督训练。从给定的视频中，我们创建具有不同空间大小和帧速率的局部和全局时空视图。我们的自监督目标试图匹配代表同一视频的这些不同视图的特征，以保持动作的时空变化不变。据我们所知，所提出的方法是第一个减轻自监督视频转换器 (SVT) 中对负样本或专用内存库的依赖的方法。此外，由于Transformer模型的灵活性，SVT使用动态调整的位置编码支持单一架构中的慢速视频处理，并支持沿时空维度的长期关系建模。我们的方法在四个动作识别基准（Kinetics-400、UCF-101、HMDB-51 和 SSv2）上表现良好，并且在小批量下收敛得更快。代码公开在：https://git.io/J1juJ。
原文链接：

点击此处